arxiv：2406.12274v2 [CS.CL] 2024年12月14日__

arxiv：2406.12274v2 [CS.CL] 2024年12月14日

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

arxiv：2406.12274v2 [CS.CL] 2024年12月14日

¥ 1.0

热度

警告：本文包含几个不道德和敏感的陈述。为了安全性而对齐的语言模型通常会表现出脆弱和不平衡的机制，从而增加了产生不安全内容的机会。此外，融合新知识的编辑技术可以进一步损害安全性。为了解决这些问题，我们提出了SAFE I NFER，这是一种自适应，解码的 - 时间安全对准策略，用于对用户查询产生安全响应。s afe i nfer涉及两个阶段：“安全放大”阶段，它使用安全的演示示例来调整模型的隐藏状态并增加了更安全的输出的可能性，以及“安全指导的解码”阶段，这些阶段会影响标记的选择，这些选择基于安全性分布，以确保生成的内容依附于以供货物网络的网状网络，以确保以太性网状网络的网状。此外，我们介绍了Harm E Val，这是一种用于全面安全评估的新基准，旨在根据领先的AI技术公司的政策来解决潜在的滥用方案。我们在以下位置发布源代码和数据集：https：//github.com/neuralsentinel/safeinfer。

添加pdf代下载 VIP点击下载文件